Gramáticas Formales y Expresiones Regulares

GRAMÁTICAS
FORMALES Y
EXPRESIONES
REGULARES

“En esencia, la gramática es una y la misma en todas las lenguas, si bien varía accidentalmente” (Roger Bacon)

“La totalidad de las proposiciones es el lenguaje” (Wittgenstein, Tractatus 4.001)

“Entender un lenguaje significa dominar una técnica” (Wittgenstein, Investigaciones Filosóficas)

Gramáticas Formales
Una gramática formal es un conjunto de reglas de producción que especifican las posibles cadenas de caracteres que definen un lenguaje formal. Evidentemente, una gramática formal solo describe las formas de las cadenas de caracteres, pues un lenguaje no puede expresar su propia semántica.

Las reglas de producción son de la forma P → Q o bien P ::= Q, siendo P y Q (los lados izquierdo y derecho, respectivamente, de la regla), en general, cadenas de caracteres (símbolos terminales) y símbolos no terminales. Ejemplos:

S → bS S → c
representan el lenguaje {c, bc, bbc, bbbc, bbbbc, ...}.
S → aBc B → u B → uB
representan el lenguaje {auc, auuc, auuuc, auuuuc, ...}.

Características de las reglas:

Los símbolos no terminales se especifican mediante letras mayúsculas y los símbolos terminales en minúsculas.
Una de las reglas de la gramática debe incluir en su lado izquierdo un símbolo inicial no terminal a partir del cual se generan potencialmente todas las cadenas de caracteres del lenguaje, y se suele representar por S.
Un mismo símbolo no terminal puede aparecer en el lado izquierdo de varias reglas.
El significado de una regla P → Q es que P se define como Q, o que P representa o genera Q. A su vez, los símbolos de Q pueden aparecer como antecedentes en otras reglas, repitiéndose este proceso hasta que solo haya símbolos no terminales. Esta es precisamente la ventaja de las reglas de producción: que pueden ser recursivas. La recursividad permite describir un lenguaje infinito (de infinitas cadenas de caracteres).
La recursividad puede ser directa, como en el caso de la regla A → aA, o de forma indirecta (a través de otras reglas) como A → aB y B → cA.

Una gramática se puede considerar el “generador” de todas las posibles cadenas de caracteres del lenguaje. Una gramática también puede utilizarse para “reconocer” si una determinada cadena de caracteres pertenece o no a un lenguaje determinado. Son dos procesos contrarios: uno hacia adelante y otro hacia atrás.

El lenguaje de las gramáticas (las reglas de producción) es realmente un metalenguaje que permite describir lenguajes particulares.

La jerarquía de Chomsky

El concepto de gramática generativa fue introducido por Noam Chomsky en 1956. Por su carácter abstracto, formalizó la lingüística.

La llamada “jerarquía de Chomsky” es una clasificación de los lenguajes formales basada en los distintos tipos de gramáticas formales que generan lenguajes formales. Esta jerarquía consta de 4 niveles, de mayor a menor generalidad, y en donde cada nivel engloba a los inferiores:

Gramáticas de tipo 0 (sin restricciones). Incluyen a todos las gramáticas formales.
Gramáticas de tipo 1 (gramáticas sensibles al contexto), que generan los lenguajes sensibles al contexto. Las reglas son de la forma αAβ → αγβ, siendo A no terminal y α. β y γ cadenas de símbolos terminales y no terminales. Las cadenas α y β pueden ser vacías (∧).
Gramáticas de tipo 2 (gramáticas libres del contexto), que generan los lenguajes independientes del contexto. Las reglas son de la forma A → γ, siendo A no terminal y γ una cadena de terminales y no terminales.
Gramáticas de tipo 3 (gramáticas regulares), que generan los lenguajes regulares. Las reglas de producción son de la forma A → a, A → ∧ y A → aB o A → aB, siendo a un símbolo terminal, y A y B símbolos no terminales.

Expresiones Regulares
Las expresiones regulares, estudiadas por primera vez por Stephen Kleene [1956], sirven para describir lenguajes. Un lenguaje es un conjunto de cadenas de símbolos de un cierto alfabeto Σ. El lenguaje asociado a una expresión regular r se denota por L(r) y el conjunto correspondiente se denomina “conjunto regular”.

Dos expresiones regulares r y s se dice que son equivalentes si L(r) = L(s).

Las reglas que definen las expresiones regulares sobre un alfabeto Σ son de dos tipos: reglas iniciales y reglas combinatorias.

Reglas iniciales

(cadena vacía) es una expresión regular que representa al conjunto {∧}.
Si a es un símbolo de Σ, a es una expresión regular que representa al conjunto {a}.
Si r es una expresión regular que designa a L(r), entonces (r) es otra expresión regular que está incluido en L(r).

Reglas combinatorias

Las expresiones regulares se forman mediante los mecanismos combinatorios siguientes: Alternativa, Repetición y Concatenación, junto con un mecanismo de Distribución asociado a Alternativa.

Alternativa.
Se usa el símbolo “|”.

Si r y s son expresiones regulares, entonces r|s es otra expresión regular que representa a la unión de L(r) y L(s): L(r) ∪ L(s).

Ejemplos:

r = a|b|c L(r) = {a, b, c}
s = a|b|d L(s) = {a, b, d}
r|s = a|b|c|d L(r|s) = L(r) ∪ L(s) = {a, b, c, d}
Repetición.
Se utiliza el símbolo "*" (como superíndice) para indicar cero o más repeticiones de la expresión regular concatenada. Cero repeticiones es la cadena vacía.

Si r es una expresión regular, r* es la expresión regular
La repetición es un caso particular de alternativa, en este caso para describir alternativas de longitud infinita.

Ejemplos:
Concatenación.
No hay operador explícito. Si r y s son expresiones regulares. entonces rs es otra expresión regular. Por ejemplo, si a, b y c son símbolos de Σ, entonces abc es la cadena formada por la concatenación de los símbolos a, b y c.

La operación de concatenación es distributiva respecto a la alternativa (expresada ésta de forma explícita mediante el operador “|” o de forma implícita mediante el operador “*”).

Ejemplos:

Prioridad de los operadores

Con el objeto de ahorrar paréntesis se utilizan los convenios siguientes:

Las prioridades, de mayor a menor, son: “*”, concatenación y “|”.
Las tres operaciones son asociativas por la derecha.

Por ejemplo, a|b*c se interpreta como a|((b*)c), es decir, el conjunto de cadenas formadas bien por a, o por cero o más b's seguidas de c:

bbc

bbbc

Propiedades

Propiedad	Expresiones
Conmutativa	r\|s = s\|r
Asociativa	(rs)t = r(st) (r\|s)\|t = r\|(s\|t)
Distributiva	r(s\|t) = rs\|rt (r\|s)t = rt\|st
Idempotencia	r** = r*
Repetición de Alterativa	(a\|b)* = (ab)*
Cadena vacía	r∧ = ∧r = r ∧* = ∧ (r\|∧)* = r*
Elementos iguales	r\|r = r

Ampliación de la notación

Con el objeto de simplificar la especificación de ciertas construcciones que aparecen con mucha frecuencia se utilizan los símbolos siguientes:

⁺ (signo “+” como superíndice): indica repetición de una o más veces:
Se cumple que
Exponentes. Sirven para indicar repetición de una expresión regular un número finito de veces:
?: indica aparición opcional.

r? es una abreviatura de r|∧. Por lo tanto, L(r?) = L(r)∪{∧}
-: indica rango, junto con corchetes.
Por extensión, [abc] equivale a a|b|c

Ejemplos:

Expresión regular y gramática

Todo lenguaje que se pueda describir mediante una expresión regular también se puede describir mediante una gramática regular. Por ejemplo, la expresión regular a*b* se puede expresar mediante la gramática regular

Limitaciones de las expresiones regulares

A efectos de descripción de un lenguaje, las expresiones regulares tienen la ventaja de proporcionar una notación más compacta y comprensible que una gramática regular. Pero tienen limitaciones:

No se pueden expresar definiciones recursivas, como en las gramáticas.
No permiten describir formas más complejas, como las que tienen ciertas restricciones. Por ejemplo, las formas equilibradas o anidadas como el conjunto de todas las cadenas de paréntesis equilibrados:
Pero sí podría describirse con una gramática:
Otro ejemplo sería el de las cadenas de la forma wcw, siendo w = a*b*, pero manteniendo la misma cadena a ambos lados de c.
No pueden expresarse rangos de exponentes (repeticiones).
No se puede especificar una expresión regular utilizando los nombres de otras expresiones regulares.

Definiciones regulares

Con el objeto de superar esta última limitación, se utilizan las llamadas “definiciones regulares”: se dan nombres a expresiones regulares, utilizando la misma sintaxis que las reglas de una gramática, utilizándose dichos nombres como si fueran símbolos.

Para distinguir los símbolos de los nombres, se suelen escribir estos últimos en negrita. Por ejemplo, los identificadores de Pascal se definen así:

letra

dígito

letra

dígito

Especificación en MENTAL de Gramáticas Formales y Expresiones Regulares
Gramáticas formales

Una regla de producción se especifica mediante una expresión de sustitución diferida, que indica representación. Por ejemplo, las reglas

aBc

que representan el lenguaje {auc, auuc, auuuc, auuuuc, ...}, se expresan como una gramática (g):


( g = {(S =: aBc) (B =: u) (B =: uB)} )

Expresiones regulares

Cadena vacía.

(∧ =: θ)
(se redefine el símbolo ∧, el operador lógico de conjunción)
Concatenación.

⟨( rs = (r s) )⟩
Alternativa.

⟨( r|s = {r s} )⟩

Esta definición cumple las propiedades conmutativa y asociativa, así como la distributiva:

⟨( r(s|t) = {(r s)|(r t)} )⟩ ⟨( (s|t)r = {(s r)|(t r)} )⟩
Repetición 0 o más veces.

⟨( r* = {∧ r★[1…]} )⟩
Repetición 1 o más veces.

⟨( r* = {r★[1…]} )⟩
Exponentes (repetir n veces).

⟨( r^n = r★n )⟩
(se redefine el operador de exponenciación)
Aparición opcional.

⟨( r? = {r ∧} )⟩
Rango numérico.

⟨( [n1-n2] = n1…n2 )⟩
Rango alfabético.

(al = ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz)

(A =: al\1) (B =: al\2) ...

A…D (rep. (al\1 … al\4) rep. ( al\[1…4] ) rep. ABCD
Nombres de expresiones regulares.

(nombre = r) o bien (nombre =: r)

Ventajas de MENTAL para representar lenguajes

MENTAL es un lenguaje universal, un lenguaje madre o metalenguaje de todos los lenguajes particulares. Por lo tanto, todos los lenguajes particulares están conectados a nivel profundo con el lenguaje madre. MENTAL es un lenguaje límite y es su propio metalenguaje.
Se dispone de un lenguaje formal completo para expresar todo tipo de expresiones, no solo cadenas de símbolos.
Se diluye la distinción entre aplicaciones, gramáticas y expresiones regulares. Son manifestaciones de un mismo lenguaje profundo y universal.
Las primitivas semánticas universales de MENTAL establecen los grados de libertad, con las que se superan las limitaciones de las reglas de producción y de las expresiones regulares. Por ejemplo, se pueden describir expresiones condicionales, funciones, expresiones genéricas, asignar nombres a todo tipo de expresiones, etc. También se pueden definir gramáticas parametrizadas, es decir, categorías de gramáticas.

Bibliografía

Alfonseca, Manuel; Sancho, Justo; Martínez Orga, Miguel. Teoría de lenguajes y autómatas. Publicaciones R.A.E.C., 1997.
Fernández, Gregorio; Sáez Vacas, Fernando. Fundamentos de Informática. Lógica, Autómatas, Algoritmos y Lenguajes. Anaya Multimedia, 1995.
Hausser, Roland R. Foundations of Computational Linguistics. Springer-Verlag, 1999.
Isasi Viñuela, Pedro, Martínez Fernández, Paloma; Borrajo Millán, Daniel. Lenguajes, gramáticas y autómatas. Un enfoque práctico. Pearson Addison-Wesley, 2008.
Kleene, Stephen C. Representation of Events in Nerve Nets and Finite Automata. In Automata Studies. Claude Shannon and John McCarthy, eds, 1956.
Martin, John. Lenguajes formales y teoría de la computación. McGraw-Hill Interamericana, 2004.
Shannon, C.; McCarthy, J. Automata Studies. Princeton University Press, 1956.